无尽的欲,田中瞳hitomi超乳观看,跳进地理书的旅行第二季完整观看,749局电影高清在线观看,欢迎来到实力教室第三季免费观看 ,白月梵星电视剧在线观看完整版免费,白日梦我全集在线观看免费版

  • 告別「利用率崩潰」:GIPO開啟大模型強(qiáng)化學(xué)習(xí)高效訓(xùn)練新方法

      發(fā)布時(shí)間:2026-06-26 04:39:26   作者:玩站小弟   我要評論
      西寧10月13日電 (趙海梅 顏亮東 孫睿)13日,記者。

    在現(xiàn)代強(qiáng)化學(xué)習(xí)系統(tǒng)(如訓(xùn)練視覺語言動(dòng)作模型 VLA 或大規(guī)模機(jī)器人控制策略)中,由于策略滯后(Policy Lag)導(dǎo)致數(shù)據(jù) Off-policy 現(xiàn)象已成為難以避免的常態(tài)。無論是在數(shù)據(jù)被反復(fù)復(fù)用迭代的同步更新中,還是在采樣與訓(xùn)練解耦的分布式 Actor-Learner 異步架構(gòu)下,存在數(shù)據(jù)與當(dāng)前策略的脫節(jié)問題。特別是在具身真機(jī)場景下,由于物理采集緩慢且高度依賴歷史數(shù)據(jù)回放,這種滯后程度更是被推向了極端。

    近期,來自樹根科技與三一集團(tuán)團(tuán)隊(duì)聯(lián)合提出了GIPO算法,在機(jī)器人操控及大語言 / 視覺動(dòng)作模型(VLA)強(qiáng)化學(xué)習(xí)訓(xùn)練中,GIPO 既顯著緩解了數(shù)據(jù)短缺導(dǎo)致的策略滯后痛點(diǎn),又有效改善了 PPO 硬截?cái)嘁l(fā)的 “利用率崩潰(Utilization Collapse)” 問題。

    GIPO 論文鏈接:https://arxiv.org/abs/2603.03955論文標(biāo)題 1:GIPO: Gaussian Importance Sampling Policy OptimizationAcceRL 論文鏈接:https://arxiv.org/abs/2603.18464論文標(biāo)題 2:AcceRL: A Distributed Asynchronous Reinforcement Learning and World Model Framework for Vision-Language-Action Models

    GIPO :用比例看問題,而不是用絕對差值看問題

    核心公式

    對數(shù)空間對稱性:一種優(yōu)雅的平衡

    平滑性與非零梯度:拯救 “死樣本”

    偏差 - 方差的 “帕累托旋鈕”

    Advantage-Aware GIPO

    理論基石:策略性能下界與有限樣本保證

    代理目標(biāo)的理論下界

    有限樣本控制與穩(wěn)定性

    在真實(shí)的 RL 訓(xùn)練中,由于無法計(jì)算期望,只能從回放池中抽取有限的 Batch Size(假設(shè)為 N)來進(jìn)行經(jīng)驗(yàn)估計(jì)(Empirical Estimation):

    實(shí)驗(yàn)結(jié)果: 方差 - 偏差平衡性能和 7B VLA 工業(yè)落地

    方差 - 偏差平衡性能帕累托最優(yōu)

    分析結(jié)果展現(xiàn)了 GIPO 良好的方差 - 偏差平衡性:在嚴(yán)重滯后的場景(Case A, B)中,PPO 測算出的方差竟然是 0。但這根本不是因?yàn)?PPO 穩(wěn)定,而是因?yàn)槠溆步財(cái)鄼C(jī)制將所有樣本直接判斷為 “越界”,導(dǎo)致100% 的樣本梯度死亡。沒有梯度,自然沒有方差,這等同于模型停止了學(xué)習(xí)。

    圖 2:2x2 網(wǎng)格世界中的偏差 - 方差權(quán)衡。GIPO(虛線)真正定義了帕累托前沿(Pareto Frontier),而 PPO 在高滯后場景下完全停止了學(xué)習(xí)

    工業(yè)級驗(yàn)證規(guī)模

    在當(dāng)前的具身智能領(lǐng)域,受限于高昂的物理交互成本與長視野連續(xù)控制的復(fù)雜性,能將策略優(yōu)化算法直接部署到數(shù)十億參數(shù)模型上的研究并不多見。GIPO 團(tuán)隊(duì)為了驗(yàn)證其算法在真實(shí)世界擴(kuò)展性(Scalability),投入了龐大的計(jì)算資源:模型基座使用了 7B 參數(shù)量的 OpenVLA-OFT 作為骨干網(wǎng)絡(luò),整個(gè)評估過程耗費(fèi)了超過10,000H200 GPU 小時(shí),在 LIBERO 機(jī)器人多任務(wù)操作基準(zhǔn)上,處理了超過 7.3 億次交互采樣。

    為了評估算法對策略滯后的魯棒性,研究團(tuán)隊(duì)設(shè)計(jì)了兩種數(shù)據(jù)場景,通過控制采樣器(Actors)與訓(xùn)練器(Trainers)的比例來人為制造不同程度的數(shù)據(jù)滯后。新鮮場景(Fresh Regime):配置 10 個(gè)采樣器對 1 個(gè)訓(xùn)練器(或類似高吞吐配置),數(shù)據(jù)收集快,回放池中的樣本非常接近當(dāng)前策略。陳舊場景(Stale Regime):強(qiáng)制降低吞吐量(例如 1 個(gè)采樣器對 1 個(gè)訓(xùn)練器),導(dǎo)致訓(xùn)練器不得不反復(fù)咀嚼回放池中陳舊的歷史數(shù)據(jù),制造類似于真機(jī)場景的策略滯后。

    如圖 3 所示,在新鮮場景下,GIPO、PPO 與 SAPO 均能取得不錯(cuò)的表現(xiàn),GIPO 略占優(yōu)或持平。然而,一旦切換到陳舊場景,算法之間的性能差距就會被拉開。在面對陳舊數(shù)據(jù)時(shí),PPO 的學(xué)習(xí)曲線往往在早期就陷入停滯,最終收斂到一個(gè)較低的平均回報(bào)水平。SAPO 雖然引入了軟門控,但在處理高滯后數(shù)據(jù)時(shí),依然表現(xiàn)出較大的波動(dòng)和次優(yōu)的樣本效率。而 GIPO 能更快逼近最優(yōu)成功率,展現(xiàn)出很強(qiáng)的抗滯后能力和穩(wěn)定性。

    圖 3:LIBERO 機(jī)器人套件學(xué)習(xí)曲線。在 LIBERO-Spatial 和 LIBERO-10 等復(fù)雜任務(wù)中,GIPO 的優(yōu)勢被進(jìn)一步放大,展現(xiàn)了在數(shù)十億參數(shù) VLA 任務(wù)中實(shí)戰(zhàn)價(jià)值

    Metaworld 多種子實(shí)驗(yàn)

    在 MetaWorld Stale(陳舊數(shù)據(jù)環(huán)境)下,團(tuán)隊(duì)對比了 8 種算法配置(包含優(yōu)勢感知變體),覆蓋了 10 個(gè)不同的機(jī)器人操控任務(wù)。為了消除隨機(jī)性干擾,每一個(gè)配置 5 個(gè)隨機(jī)種子,總共運(yùn)行 400 個(gè)獨(dú)立的訓(xùn)練實(shí)例。在統(tǒng)計(jì)指標(biāo) IQM(Interquartile Mean,分位數(shù)均值) 排名中,GIPO 展示出了非常大的優(yōu)勢,如下面的聚合排名表所示,GIPO 系列占據(jù)了前 6 名位置,其中 GIPO (1.0, 1.0) 平均歸一化得分(0.730)甚至達(dá)到了 PPO(0.180)的 4 倍之多。

    GIPO 變體的 IQM 表現(xiàn)顯著高于 SAPO 與 PPO 基準(zhǔn)。即便在策略滯后環(huán)境下,其展現(xiàn)出的成功率提升曲線依然保持著驚人的平滑度。同時(shí),實(shí)驗(yàn)結(jié)果有力地驗(yàn)證了 “對數(shù)對稱性” 與 “優(yōu)勢感知” 可以兼容,而且相得益彰。GIPO 的數(shù)學(xué)框架可以輕松嵌入非對稱邏輯,同時(shí)維持其獨(dú)有的理論穩(wěn)定性上限。

    值得注意的是,GIPO 的卓越性并不局限于應(yīng)對滯后的 “救場”。在策略滯后輕微的新鮮場景下,GIPO 同樣展現(xiàn)出了優(yōu)良的性能上限。在涵蓋 10 個(gè)任務(wù)、總計(jì) 250 次獨(dú)立訓(xùn)練運(yùn)行的大規(guī)模 MetaWorld Fresh 實(shí)驗(yàn)中,GIPO 依然保持了領(lǐng)先優(yōu)勢。如下表所示,即便是在通用配置下,GIPO 的 IQM(分位數(shù)均值)得分依然達(dá)到了 PPO 的兩倍以上。這意味著 GIPO 不僅能處理 “舊數(shù)據(jù)”,也能更好發(fā)揮 “新數(shù)據(jù)” 的價(jià)值,顯著提升了在線 RL 的學(xué)習(xí)效率。

    大模型落地的 “穩(wěn)壓器”:GIPO 助推 AcceRL 登頂 SOTA

    如何高效地進(jìn)行數(shù)十億參數(shù)規(guī)模的視覺 - 語言 - 動(dòng)作(VLA)模型的強(qiáng)化學(xué)習(xí)訓(xùn)練是行業(yè)公認(rèn)的難題。為此,團(tuán)隊(duì)推出了AcceRL—— 首個(gè)專為 VLA 模型設(shè)計(jì)的全異步、解耦式強(qiáng)化學(xué)習(xí)與世界模型框架。

    AcceRL 通過物理隔離訓(xùn)練、推理與采樣流,打破了傳統(tǒng)框架中的同步屏障,并首次引入了 “即插即用” 的可訓(xùn)練世界模型,實(shí)現(xiàn)了驚人的200 倍(20,000%)數(shù)據(jù)效率提升,然而,這種優(yōu)秀的工程性能對底層算法的穩(wěn)定性提出了更高要求,這正是 GIPO 大顯身手的舞臺。

    為什么 AcceRL 選擇 GIPO?

    AcceRL 通過物理隔離設(shè)計(jì)大幅提升了系統(tǒng)的吞吐量。然而,這種 “全異步” 的分布式架構(gòu)是一把雙刃劍:它在消除硬件閑置、實(shí)現(xiàn)吞吐量超線性擴(kuò)展的同時(shí),不可避免地帶來了劇烈的策略滯后(Policy Lag)。

    在 AcceRL 的非阻塞管道中,訓(xùn)練與采樣獨(dú)立進(jìn)行,導(dǎo)致回放池中充斥著陳舊的 Off-policy 數(shù)據(jù)。實(shí)驗(yàn)證明,在這種滯后場景下,標(biāo)準(zhǔn) PPO 會頻繁觸發(fā)硬截?cái)鄼C(jī)制,導(dǎo)致大量包含關(guān)鍵修正信號的樣本梯度直接歸零,淪為毫無貢獻(xiàn)的 “死樣本”,阻礙訓(xùn)練效率。

    GIPO 通過其標(biāo)志性的平滑高斯信任權(quán)重,為 AcceRL 提供了一套具備數(shù)學(xué)保證的阻尼機(jī)制,使其能夠穩(wěn)健地消化這些陳舊樣本,成為了整個(gè)框架處理異步偏差的核心優(yōu)化引擎。此外 AcceRL 實(shí)現(xiàn)了利用世界模型想象生成強(qiáng)化學(xué)習(xí)訓(xùn)練數(shù)據(jù)。雖然這些數(shù)據(jù)擴(kuò)展了探索邊界,但也存在合成偏差。GIPO 利用對數(shù)空間對稱性,提取了這些想象數(shù)據(jù)中的改進(jìn)信號,使得 “在想象中學(xué)習(xí)” 不再因梯度不穩(wěn)定而崩潰。

    如下圖所示,在針對算法目標(biāo)的消融實(shí)驗(yàn)中,配備 GIPO 的系統(tǒng)表現(xiàn)出了驚人的學(xué)習(xí)速度。GIPO 在約 8,000 步時(shí)達(dá)到的性能水平,標(biāo)準(zhǔn) PPO 需要耗費(fèi) 60,000 步才能觸及。這意味著在相同的硬件環(huán)境下,GIPO 將樣本利用效率提升了整整 7.5 倍。

    圖 4:GIPO 和 PPO 在 AcceRL 中效果對比

    登頂 LIBERO

    在 LIBERO 的長視野(Long-horizon)操控任務(wù)中,GIPO 助力 AcceRL 展示了優(yōu)秀的穩(wěn)定性。相比于對早期誤差敏感的傳統(tǒng)監(jiān)督微調(diào)(Success Rate 90.7%),AcceRL 在 GIPO 的支撐下實(shí)現(xiàn)了突破:在 LIBERO-Long 任務(wù)套件中,AcceRL 達(dá)成了99.1%的成功率。這種表現(xiàn)源于 GIPO 優(yōu)異的偏差 - 方差權(quán)衡,它確保了模型在執(zhí)行復(fù)雜多步動(dòng)作時(shí),能夠從輕微的擾動(dòng)中恢復(fù),維持了策略在長周期內(nèi)的連續(xù)性與穩(wěn)定性。

    結(jié)語:算法美學(xué)與工程力量的共振

    AcceRL 框架的成功,驗(yàn)證了 GIPO 在大規(guī)模異步訓(xùn)練中的底層基石作用。通過穩(wěn)健地處理異策略偏差,GIPO 突破了分布式系統(tǒng)的穩(wěn)定性瓶頸,為‘大規(guī)模 VLA + 異步 RL + 世界模型’這一架構(gòu)提供了可靠的算法護(hù)航,并最終在 LIBERO 基準(zhǔn)測試中取得了 SOTA 成績。